Donald Trump is zijn nieuwe presidentschap begonnen met de uitspraak dat Amerika de wereld moet gaan leiden, zeker ook op het gebied van artificial intelligence (AI).

China reageerde hierop met een waarschuwing van z’n beste AI-team, dat laat zien dat de technologische superioriteit van de VS niet vanzelfsprekend is.

DeepSeek, een Chinese startup die is opgericht en gefinancierd door het Chinese hedgefonds High Flyer, lanceerde deze week een nieuwe versie van zijn AI-model.

High Flyer richtte DeepSeek in 2023 op om AI-onderzoek te doen. De meest recente versie van het model van DeepSeek werd gepresenteerd op de dag van de inauguratie van Trump. Amerikaanse toponderzoekers toonden zich onder de indruk.

In een artikel dat maandag is gepubliceerd, onthult DeepSeek een nieuw AI-model genaamd R1 dat een nieuw niveau van "redeneren" laat zien. Waarom het zo'n enorme indruk heeft achtergelaten op AI-experts in de VS is van belang.

De beste AI-bedrijven in Silicon Valley richten zich steeds meer op de ontwikkeling van "redeneren" in hun AI-modellen, omdat dit de technologie naar een bijzonder hoog niveau kan tillen.

Om dit te bereiken pushen techreuzen zoals OpenAI, Google en Anthropic hun modellen om meer tijd te besteden aan verschillende redeneerstappen, voordat ze reageren op de vraag van een gebruiker. Het is een duur, intensief proces dat veel vraagt van de rekenkracht die eronder zit.

OpenAI heeft bijvoorbeeld z'n o1 modellen - "die zijn ontworpen om meer tijd te besteden aan nadenken voordat ze reageren" - in december op de markt gebracht, na een eerste release in september. DeepSeek's R1 laat zien hoe snel het de kloof kan dichten.

DeepSeek is transparant over achterliggende AI-model

Wat doet R1 precies? Ten eerste zegt DeepSeek dat R1 “prestaties behaalt die vergelijkbaar zijn met die van OpenAI o1 op het gebied van wiskunde, code en redeneertaken”.

In het onderzoeksartikel van DeepSeek wordt uitgelegd dat dit mogelijk is dankzij pure reinforcement learning, een techniek die volgens onderzoeker Jim Fan van AI-chipmaker Nvidia doet denken aan het geheim achter het model AlphaZero van DeepMind, de AI-tak van Google. Dit model werd een meester in schaken “zonder menselijke grootmeesters te imiteren”, aldus Fan. Dit is het belangrijkste inzicht van het artikel van DeepSeek.

DeepSeek gebruikte pure reinforcement learning om te onderzoeken of het AI-model “redeneervermogens kon ontwikkelen zonder de toegang tot data”. Dit is een veelgebruikte techniek onder AI-onderzoekers.

Het is belangrijk om te weten dat deze vorm van reinforcement learning vooral werkt op punten die relatief eenvoudig op correctheid te controleren zijn. De techniek zorgt er namelijk voor dat het AI-model elke stap een controle uitvoert of zijn uitkomst of beredenering wel klopt. De AI-modellen die deze vorm van leren gebruiken, scoren daardoor doorgaans hoog op wiskundige tests en op het genereren van programmeertaal.

Tegelijk zijn dit soort modellen minder goed in algemene taken, zoals bijvoorbeeld al is gebleken uit gebruikerservaringen van OpenAI's o1-model. Het maakt dat het vergelijken van dit soort modellen vooral neerkomt op prestaties en zich niet per se vertaalt naar een betere bruikbaarheid of het accurater presteren op het beantwoorden van de dagelijkse vragen die het gros van de gebruikers aan bekende AI-chatbots stelt.

"Alsof een mens hardop denkt"

Maar Deepseek zegt dat zijn model een stap verder gaat dan wat tot nu toe mogelijk werd geacht. Het bedrijf geeft aan dat een eerdere versie van R1, genaamd R1-Zero, hen een “aha-moment” gaf toen het “leerde om meer denktijd aan een probleem toe te wijzen om zo z'n oorspronkelijke aanpak opnieuw te evalueren.” Het eindresultaat is dat de output van R1 eruit ziet “alsof een mens hardop denkt”.

Het is opmerkelijk dat dit niveau van transparantie in de ontwikkeling van AI ontbreekt in de rapporten en artikelen die bedrijven als OpenAI publiceren bij het uitbrengen van modellen met vergelijkbare vaardigheden.

Nathan Lambert, een wetenschapper aan het Allen Institute for AI, merkt op dat het artikel van R1 “een belangrijk keerpunt is in de onzekerheid in onderzoek naar redeneermodellen”, omdat “redeneermodellen tot nu toe een belangrijk gebied van onderzoek zijn geweest zonder een duidelijk baanbrekend artikel.”

Om trouw te blijven aan de grondbeginselen van AI, is DeepSeek's R1 model volledig open-sourced en heeft een MIT licentie - de industriestandaard voor softwarelicenties.

Samen zorgen deze elementen van R1 om een paar redenen voor complicaties voor Amerikaanse spelers die verwikkeld zijn in een AI-wapenwedloop met China - de belangrijkste geopolitieke rivaal van Trump:

  1. Het laat zien dat China kan wedijveren met enkele van de beste AI-modellen in de VS en kan meekomen met de baanbrekende ontwikkelingen uit Silicon Valley.
  2. Een open-source variant van zeer geavanceerde AI kan een uitdaging vormen voor bedrijven die enorme winsten willen maken door hun technologie te verkopen.

OpenAI introduceerde bijvoorbeeld in december een ChatGPT Pro plan dat 200 dollar per maand kost. Het verkoopargument was dat het “onbeperkte toegang” tot het slimste model van dat moment, o1, biedt. Als een open-source model vergelijkbare mogelijkheden gratis aanbiedt, kan de prikkel om een duur betaald abonnement te kopen in theorie afnemen.

Nvidia's Fan beschrijft de situatie als volgt op X: “We leven in een tijd waarin een niet-Amerikaans bedrijf de oorspronkelijke missie van OpenAI levend houdt - echt open, grensverleggend onderzoek waar iedereen toegang toe heeft.”

DeepSeek heeft al eerder laten zien dat het 'redenatie-know-how' in huis heeft. In november gaf het bedrijf een “R1-lite-preview” vrij die zijn “transparante denkproces in realtime” liet zien. In december bracht het een model uit met de naam V3 dat moet dienen als een nieuwe, grotere basis voor toekomstige redeneringen in modellen.

Dat is een belangrijke reden waarom Amerikaanse onderzoekers een significante verbetering zien in het nieuwste model R1 ten opzichte van de Amerikaanse alternatieven.

Theo Browne, een softwareontwikkelaar achter een populair YouTube-kanaal, zei: “Het nieuwe DeepSeek R1-model is ongelooflijk”. Tanay Jaipuria, een partner die investeert in AI bij Silicon Valley's Wing VC, omschreef het op X ook als “ongelooflijk.”

Awni Hannun, een onderzoeker op het gebied van machine learning bij Apple, zei dat een belangrijk voordeel van R1 is dat het minder zwaar is. Dit toont aan dat de AI-sector “dicht in de buurt komt van open-source o1, thuis, op consumentenhardware”, zei hij verwijzend naar het model van OpenAI.

Het model kan ook zo opgezet worden dat kleinere maar ook krachtige versies kunnen draaien op hardware die veel minder rekenkracht heeft dan de servers in datacenters waar veel techbedrijven afhankelijk van zijn om hun AI-modellen draaiende te houden.

Hannun demonstreerde dit door op X een filmpje te delen van een 671 miljard parameters tellende versie van R1 die op twee Apple M2 Ultra chips draait en reageert op de vraag of een straight of een flush beter is in een spelletje Texas Hold 'em. Hannun zei dat het antwoord “sneller kwam dan de snelheid waarmee we lezen”.

R1's tekortkomingen

R1 lijkt één belangrijk probleem te hebben. Voormalig OpenAI bestuurslid Helen Toner wees er op X op dat er demo's zijn van R1 “die zichzelf uitschakelt wanneer er gevraagd wordt naar onderwerpen die de Chinese Communistische Partij niet aanstaan.”

Toner merkte echter wel op dat "de censuur duidelijk wordt uitgevoerd door een extra laag, niet door het model zelf." DeepSeek reageerde niet direct op een verzoek van Business Insider om commentaar.

Het is belangrijk te melden dat OpenAI een nieuw model heeft geïntroduceerd, o3 genaamd, dat bedoeld is als opvolger van het o1 model waar DeepSeek momenteel mee concurreert. Lambert zei in zijn blog dat het “waarschijnlijk technisch vooruitstrevend” is, met het belangrijke voorbehoud dat het model “niet publiekelijk beschikbaar” is en dat basisinformatie niet op korte termijn vrijkomt.

Gelet op de staat van dienst van DeepSeek tot nu toe, zal het iemand verbazen als het volgende model gelijkwaardig is aan o3.

LEES OOK: We leven in het tijdperk van ‘agentic AI’, volgens de baas van AI-chipmaker Nvidia - dit is wat hij bedoelt